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摘 ”要 


神经 网 络 传感器 (Neural Transducer) 和 连接 时 序 分 类 (Connectionist Tempo- 
ral Classification, CTC) 是 流行 的 端 到 端 自动 语音 识别 系统 。 由 于 它们 的 帧 同步 
(Frame-synchronous) 设计 , 空白 (Blank) 符号 被 引入 以 解决 声学 帧 输入 序列 和 输 
出 标签 序列 之 间 的 长 度 不 匹配 问题 ， 这 可 能 会 带 来 元 余 的 计算 。 先 前 的 研究 通过 
丢弃 联合 训练 的 CTC 所 预测 的 空白 帧 来 加 速 神经 网 络 传感器 的 训练 和 推理 。 然 
而 ， 这 并 不 能 保证 联合 训练 的 CTC 能 够 最 大 限度 地 提高 空白 符号 的 占 比 。 本 文 
提出 了 两 种 新 颖 的 正则 化 方法 , 通过 约束 CTC 非 空白 符号 的 自 循环 (Self-loop ) , 
显 式 地 鼓励 CTC 标记 更 多 的 空白 符号 ， 使 得 神经 网 络 传感器 获得 更 大 程度 的 加 
速 。 

在 LibriSpeech 语料库 上 的 实验 表明 ， 本 文 提 出 的 方法 在 不 牺牲 性 能 的 前 提 
下 ， 将 神经 网 络 传感器 的 推理 速度 提高 了 4 倍 。 此 外 ， 当 神经 网 络 传感器 结合 外 
部 语言 模型 进行 解码 时 ， 能 够 获得 更 大 的 性 能 提升 。 值 得 注意 的 是 ,本文 提出 的 
正则 化 方法 能 够 让 神经 网 络 传感器 的 跳 帧 率 逼 近 理论 极限 ， 这 是 首 个 探索 几乎 

含 空 白 符号 的 神经 网 络 传感器 可 行 性 的 工作 。 


关键 词 : 语音 识别 ， 神 经 网 络 传感器 ， 连 接 时 序 分 类 


ABSTRACT 


Neural Transducer and connectionist temporal classification (CTC) are popular 
end-to-end automatic speech recognition systems. Due to their frame-synchronous de- 
sign, blank symbols are introduced to address the length mismatch between acoustic 
frames and output tokens, which might bring redundant computation. Previous studies 
managed to accelerate the training and inference of neural Transducers by discarding 
frames based on the blank symbols predicted by a co-trained CTC. However, there is 
no guarantee that the co-trained CTC can maximize the ratio of blank symbols. This 
paper proposes two novel regularization methods to explicitly encourage more blanks 
by constraining the self-loop of non-blank symbols in the CTC. 

Experiments on LibriSpeech corpus show that our proposed method accelerates 
the inference of neural Transducer by 4 times without sacrificing performance. It is 
interesting to find that the frame reduction ratio of the neural Transducer can approach 
the theoretical boundary. Additionally, a further gain can be observed when decoding 
with external language models. To the best of our knowledge, this is the first work to 


explore the feasibility of neural Transducers with almost no blank symbols. 


KEY WORDS: Speech Recognition, Neural Transducer, CTC 
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第 一 章 4% 


1.1 研究 背景 及 研究 目的 

端 到 端 (End to end, E2E) 架构 在 自动 语音 识别 (Automatic speech recognition, 
ASR) 领域 获得 越 来 越 多 的 关注 。 近 年 来 ， 主 要 开发 出 三 个 具有 代表 性 的 架构 ， 
分 别 是 连接 时 序 分 类 (Connectionist Temporal Classification, CTC) 叫 ， 神 经 网 络 
传感器 (neural Transducer) P! 和 基于 注意 力 的 编码 器 -解码 髓 (Attention-based 
Encoder-Decoder, AED) 名。 在 这 三 种 架构 中 ，CTC 和 神经 网 络 传感器 具有 一 
些 共同 特征 ， 因 为 它们 都 是 帧 同步 (Frame-synchronous) 系统 ， 每 一 个 声学 输入 
帧 都 会 映射 到 一 个 或 多 个 目标 标签 (Label) 。 相 比 之 下 ，AED 采用 了 标签 同步 
(Label-synchronized) 解码 ， 每 一 步 都 会 生成 一 个 有 效 的 目标 标签 。 由 于 其 流 式 
处 理 特性 和 在 多 项 任务 中 的 卓越 性 能 ， 神 经 网 络 传 感 嚣 越 来 越 受 到 学 术 人 研究 和 
工业 应 用 的 关注 。 然 而 ， 与 AED 模型 相 比 ， 神 经 网 络 传感器 的 解码 过 程 计 算 开 
销 更 大 ， 因 为 它 需 要 处 理 帧 同步 解码 中 每 个 声学 帧 所 对 应 的 输出 。 

由 于 声学 帧 的 输入 序列 通常 比 目 标 标 签 序列 要 长 得 多 ， 帧 同步 的 神经 网 络 
传感器 和 CTC 架构 中 引入 了 一 个 特殊 的 空白 符号 (Blank) ， 来 表示 “不 输出 任 
何 内 容 ”。 在 推理 过 程 中 ， 大 部 分 声学 输入 帧 被 归 类 为 空白 帧 ， 这 可 能 导致 不 必 
要 的 计算 。 

1.2 国内 外 发 展现 状 

为 了 加 快 解码 速度 ，Chen 等 人 外 使 用 高 效 的 空白 符号 以 及 后 处 理 方法 ,将 
隐 马 尔 可 夫 模 型 和 CTC 模型 的 推理 过 程 从 帧 同步 改 为 标签 同步 ， 在 保持 性 能 的 
同时 取得 了 极 大 的 加 速 。Xu 等 人 在 标准 神经 网 络 传感器 中 引入 额外 的 空白 符 
号 ， 称 之 为 大 空白 符 ， 输 出 一 个 大 空白 符号 会 消耗 两 个 或 更 多 的 声学 输入 帧 ， 实 
现 了 较 大 的 推理 加 速 ， 并 略微 提高 准确 率 。 

此 外 ， 以 往 的 研究 已 经 探究 了 空白 帧 的 识别 以 及 丢弃 空白 帧 对 解码 结果 的 
影响 ，Chen 4& AU 研究 了 CTC 模型 的 尖峰 后 验 特 性 (Peaky Posterior Property) ， 
发 现 空白 帧 对 解码 性 能 的 贡献 微不足道 ,丢弃 空白 帧 不 会 影响 解码 最 佳 路 径 。 类 
似 地 ，Zhang AM) 在 神经 网 络 传感器 的 解码 过 程 中 丢弃 空白 帧 并 压缩 搜索 空 
间 ， 以 加 快 解码 速度 。Tian SE ADT 在 推理 过 程 中 ， 基 于 联合 训练 的 CTC 生成 
的 空白 概率 分 布 丢 弃 共享 编码 器 的 输出 帧 ， 从 而 减少 通过 联合 网 络 (Joiner/Joint 
Network) 的 编码 器 帧 数 。 与 中 类 似 , Wang 55 AP! 在 训练 和 推理 过 程 中 在 共享 编 
码 器 的 中 间 层 应 用 了 跳 帧 技术 ， 在 不 影响 性 能 的 前 提 下 获得 了 显著 的 推理 加 速 。 
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13 ”本文 主要 工作 及 贡献 
以 往 的 工作 通过 丢弃 联合 训练 的 CTC 预测 的 空白 帧 ， 从 而 实现 神经 网 络 传 
感 器 的 推理 加 速 区 1 。 如 果 联 合 训练 的 CTC 能 够 准确 地 将 更 大 比例 的 声学 输入 帧 
归 类 为 空白 帧 ， 那 么 神经 网 络 传感器 的 推理 速度 可 以 进一步 得 到 加 快 。 为 了 实 
现 这 一 目标 ， 本 文 探 索 了 多 种 方法 来 正则 化 CTC 预测 的 空白 概率 。 本 文通 过 在 
CTC 拓扑 图 (CTC Topology) 中 对 非 空白 符号 (Token) 的 自 环 加 以 惩罚 4, 或 者 
通过 限制 CTC 中 连续 重复 的 非 空 白 符号 的 最 大 数量 天， 来 显 式 鼓 励 CTC 分 支 标 
记 更 多 的 空白 帧 。 本 文 证 明 , 通过 调整 4 或 KK，CTC 标记 的 非 空白 声学 帧 的 数量 
可 以 接近 目标 标签 序列 的 数量 。 在 LibriSpeech 语料库 上 的 实验 表明 ， 通 过 空白 
正则 化 的 CTC 指导 的 神经 网 络 传感器 比 不 丢弃 空白 帧 的 基线 模型 (Baseline) H 
有 更 低 的 词 错 误 率 (Word-error-rate, WER) 。 
总 的 来 说 ， 本 文 的 贡献 主要 有 三 点 : 
。 本文 提 出 了 两 种 新 颖 的 正则 化 方法 来 显 式 鼓 励 联合 训练 的 CTC 标记 更 多 
的 空白 帧 ， 从 而 进一步 加 快 神经 网 络 传感器 的 推理 速度 ; 
e 通过 应 用 本 文 提 出 的 策略 ， 神 经 网 络 传感器 的 跳 帧 率 可 以 逼近 理论 极限 ; 
e 实验 表明 , 在 不 牺牲 性 能 的 前 提 下 ,， 本文 提 出 的 方法 通过 跳 帧 技术 将 神经 
网 络 传感器 模型 的 推理 速度 相对 于 标准 神经 网 络 传感器 模型 提高 了 4 倍 。 
与 具有 竞争 力 的 基线 模型 外相 比 ， 本 文 实现 了 1.5 倍 的 速度 提升 。 
本 文 使 用 k2m" 框架 来 修改 CTC 拓扑 结构 以 及 计算 损失 函数 。 相 关 代 码 已 
发 布 于 开源 项 目 icefall 。 


"https://github.com/k2-fsa/icefall 
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第 二 章 。” 端 到 端 语音 识别 系统 概述 


2.1 常见 的 三 类 端 到 端 语音 识别 框架 
2.1.1 连接 时 序 分 类 (Connectionist Temporal Classification, CTC) 


CTC!) 是 最 早 的 端 到 端 语音 识别 框架 之 一 , 包含 一 个 编码 器 和 一 个 线性 层 作 
为 解码 器 。 为 了 解决 声学 输入 帧 序列 与 目标 标签 序列 之 间 的 长 度 不 匹配 问题 , 输 
出 词汇 表 个 增 加 了 一 个 空白 符号 ©, 表示 这 一 帧 没有 标签 输出 。 给 定 长 度 为 了 的 
声学 特征 输入 序列 x = (x1,… xr), BRUST IEBCATUS f = if. PIS. 
HEA qr] EA, CTC 解码 器 ， 生 成 7 个 条 件 独立 的 后 验 概率 分 布 p1,… ,Pr， 
ji Vue 相对 应 。 给 定 长 度 为 U 的 真实 标签 序列 了 = G1,… ,yv)， 其 中 
y. € 'V, CTC 的 目标 函数 定义 为 x 和 y 之 间 所 有 可 能 的 对 齐 (Alignment) 的 概 
率 之 和 |: 


Ly) = 5, logplrlx), Q-1) 
meB-(y) 
rp, 80) 是 一 个 多 对 一 的 映射 ， 用 于 在 对 齐 中 去 除 连续 重复 的 标签 和 所 有 空 
白 符号 。 图 2-1 展示 了 CTC 预测 的 符号 序列 通过 映射 BC) 得 到 其 对 应 的 目标 序 
列 的 过 程 。 


ccmassem D y y y e byye CI 


合并 连续 重复 符号 
zwmaenss E e D Ly e a ly ee 


最 终 输出 Bs EV e Ebr VA ded et ep ot 


图 2-1 — BE) 处 理 CTC 预测 的 符号 序列 得 到 目标 序列 的 过 程 


根据 CTC 的 条 件 独立 性 假设 ， 其 目标 函数 公式 (2-1) 可 以 近似 地 表示 为 : 


T 
£o) 5, PlgpG | x) (2-2) 

meBl(y) t=1 
基于 加 权 有 限 状 态 转换 器 (Weighted Finite State Transducer, WFST) 的 解 
码 器 可 以 高 效 地 实现 CTC 及 其 变 体 的 算法 路 四 。 一 个 典型 的 CTC 词 图 (CTC 
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Lattice) 包含 三 个 有 限 状 态 转 换 器 (Finite State Transducer, FST) : 
e CTC 拓扑 图 (CTC Topology Graph, H) ， 作 为 映射 BC) 的 一 种 实现 ; 
e 词典 图 (Lexicon Graph, L) ， 将 词典 单元 (Lexicon Unit) 序列 映射 为 单 
词 (word) ; 
e 稠密 有 限 状 态 接收 器 (Dense Finite State Acceptor, Dense.FSA) ， 其 中 权 
重 表示 声学 对 数 概率 。 

CTC 词 图 可 以 通过 两 个 步骤 得 到 。 首 先 ， 将 CTC 拓扑 图 H 和 目标 序列 的 
词典 图 工 合并 (Compose) 为 HL 转换 器 (HL) ， 其 将 预测 的 符号 序列 转换 为 
单词 序列 。 然 后 ， 将 HL 与 表示 CTC 解码 器 输出 的 概率 分 布 的 Dense.FSA 相交 
(Intersect) ， 生 成 CTC 词 图 ， 其 中 包含 了 目标 标签 序列 所 有 有 效 的 对 齐 By). 


2.1.2 ”基于 注意 力 的 编码 器 -解码 器 (Attention-based Encoder-Decoder, 
AED) 


AED?! 采用 注意 力 机 制品 来 隐 式 识别 并 建 模 每 个 输出 单元 相关 的 声学 输 
人 和 人， 避免 了 显 式 建 模 对 齐 的 需求 。AED 模型 一 次 性 处 理 整 个 声学 输入 序列 ， 为 
了 显 式 指示 模型 已 经 完成 了 所 有 输出 标签 的 生成 ， 和 输出 词汇 表 V 增加 了 一 个 名 
子 结束 符号 (eos). 

如 图 2-2 所 示 ，AED 模型 由 编码 器 和 基于 注意 力 机 制 的 解码 器 组 成 。 编 码 
器 将 声学 输入 帧 序列 x = On. ,x7) 编码 为 更 高 层次 的 表示 及 = (m sn). fi 
码 器 基于 注意 力 机 制 得 到 关于 输出 词汇 表 V U (eos) 的 概率 分 布 。 给 定 训练 样本 
对 wy), $ = Qi ,yvu,《e0s)) 表示 通过 结尾 添加 句子 结束 符号 (eos) 扩展 的 输 
出 标签 序列 。 在 基于 注意 力 机 制 的 解码 器 生成 任何 输出 之 前 , 使 用 句子 开始 符号 
(sos) 作为 第 一 个 输入 yo。AED 的 目标 函数 定义 为 $ 的 条 件 概 率 : 


U+1 U+l 
LO) = pO lx) =| [P0 y ,y=(s0s),c) = | ] pOrl sic), — 2-5 
i=1 i=l 
其 中 ，c 表示 上 下 文 向 量 (Context Vector) ， 是 对 编码 器 输出 h hy 的 线性 
混合 值 ; s; 表示 在 输出 前 序 标签 序列 之 后 的 解码 器 状态 ， 是 通过 前 一 个 时 间 步 的 
上 下 文 向 量 ci 和 输出 标签 yii 更 新 解码 器 状态 %-; 得 到 的 : 


s; = Decoder (Ci_1, Si_1, yi-1) (2-4) 


在 每 个 时 间 步 六， 注意 力 机 制 生成 一 个 上 下 文 向 量 c， 其 包含 生成 下 一 个 标 
签 所 需 的 声学 信息 。 注 意 力 模型 是 基于 内 容 的 ， 其 将 当前 解码 器 状态 s; 的 内 容 
与 当前 时 间 步 的 编码 器 输出 h 的 内 容 进 行 匹 配 ， 生 成 注意 力 向 量 %，% 用 于 加 
BUS Cra sd h h 以 创建 cio 
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pilsi ci) 


Decoder 


Ci-1 Si-1 Yi-1 Xis ,XT 


图 2-2 基于 注意 力 的 编码 器 -解码 器 模型 


具体 而 言 , 在 每 个 解码 时 间 步 i,， 注 意 力 机 制 使 用 向 量 h 和 s; 为 每 个 时 间 步 
u 计算 一 个 标量 能 量 eiu. Cin 经 过 Softmax 函数 转换 为 时 间 步 上 的 概率 分 布 ai。 
以 o; 为 权重 ， 线 性 混合 每 个 时 间 步 的 编码 器 输出 h 来 创建 上 下 文 向 量 c: 


ei, = (MLP; (5) , MLP? (A,)) (2-5) 


exp (eiu) 
Qj, — o aa 
X, exp (eiu) 


c=) Git, (2-7) 


(2-6) 


其 中 MLP, 和 MLP, 均 为 多 层 感 知 器 (Multilayer Perceptron, MLP) 。 
2.1.3 ”神经 网 络 传感器 (Neural Transducer) 


神经 网 络 传感器 叫 的 提出 旨 在 解决 CTC 的 条 件 独立 性 假设 所 带 来 的 问题 ， 
神经 网 络 传感器 的 输出 概率 y 是 以 先前 所 有 的 标签 ys4_1 作为 条 件 而 确定 的 。 解 
码 器 的 功能 类 似 于 语言 模型 ， 总 是 接收 先前 输出 的 标签 作为 输入 。 联 合 网 络 通过 
融合 声学 个 入 和 文本 舱 入 来 定义 在 输出 u 一 1 个 前 序 标签 之 后 ， 在 1 时 间 输 出 标 
签 上 的 概率 p(k|4,w)。 类 似 于 CTC， 神 经 网 络 传感器 也 定义 目标 函数 为 所 有 可 
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能 的 对 齐 的 概率 之 和 : 
£0)= 5, logpi|x), (2-8) 


ne (y) 

Bop, AC) 是 将 对 齐 中 的 空白 符号 移 除 的 多 对 一 映射 。 

值得 注意 的 是 ，CTC 和 神经 网 络 传感器 中 的 空白 符号 在 分 隔 连续 符号 以 及 
对 齐 声学 帧 输入 序列 与 目标 标签 序列 方面 有 具有 非常 相似 的 功能 。 但 是 , 这 两 种 类 
型 的 空白 符号 仍然 存在 一 些 细微 的 差别 。 具 体 而 言 ， 在 处 理 具有 相似 声学 信息 
的 连续 帧 时 ，CTC 的 对 齐 中 允许 一 个 目标 标签 对 应 输出 序列 中 多 个 重复 的 符号 ， 
两 个 连续 的 相同 标签 需要 至 少 一 个 空白 符号 将 其 隔 开 。 而 在 神经 网 络 传感器 中 ， 
每 个 目标 标签 只 对 应 输出 序列 中 的 一 个 符号 ， 在 对 齐 中 其 余 的 输出 符号 都 是 空 
白 符号 。 有 理由 相信 ， 这 两 个 模型 的 空白 符号 预测 是 高 度 相 关 的 ， 并 有 很 好 的 同 
步 性 。 
2.2 ”主流 的 端 到 端 语 音 识别 开源 工具 包 

随 着 端 到 端 自动 语音 识别 系统 引起 了 越 来 越 多 的 研究 兴趣 ， 各 种 强大 的 开 
源 工具 包 随 之 被 开发 ， 来 普及 基于 E2E 的 ASR 模型 的 使 用 ， 例 如 基于 K2 的 
icefall, Kaldi"4!, ESPnet!!5!_ WeNet!!®!7! 和 Fairseql! , 

由 于 本 文 基于 k2 框架 实现 ， 在 此 只 讨论 k2. 
2.2.1 k2 概述 


K2 将 有 限 状 态 自 动机 (Finite State Automaton, FSA) 和 有 限 状 态 转 换 器 
(Finite State Transducer, FST) 算法 集成 到 基于 自动 求 导 (Autograd) 的 机 器 学 习 
工具 包 中 ， 例 如 PyTorch。k2 支持 CPU 和 CUDA， 它 能 同时 处 理 一 批 (Batch) 
的 FST。k2 可 以 用 于 计算 CTC 损失 函数 ， 网 格 无 关 的 最 大 互信 息 (Lattice-free 
Maximum Mutual Information, LF-MMI)!?! 损失 函数 ， 并 能 用 于 ASR 的 解码 。 

k2 中 的 FSA/FST 具有 以 下 的 特点 : 

e 只 有 一 个 起 始 结 点 (Start State) ; 

e 只 有 一 个 终结 点 (Final State) ; 

起 始 结 点 以 0 为 编号 ; 

。 其 它 结 点 的 编号 都 大 于 0; 

。 终结 点 的 编号 最 大 ; 

进入 到 终结 点 的 弧 必 须 以 -1 作为 输入 标签 并 且 分 数 是 0， 如 果 有 输出 标 
签 那 么 必须 也 是 -1; 

不 进入 到 终结 点 的 弧 不 能 以 -1 作为 输入 标签 ， 如 果 有 输出 标签 那么 也 不 


能 是 -1; 
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。 结 点 不 具有 分 数 ; 

。 所 有 的 分 数 都 在 弧 上 ; 

© 分 数 表示 概率 的 log 值 。 
2.22 ”基于 k2 实现 CTC 相关 算法 

本 小 节 中 ， 将 以 目标 标签 序列 “AB” 为 例 ， 通 过 代码 和 可 视 化 加 权 有 限 状 
态 转 换 器 ， 展 示 构 建 CTC Latticeas 的 过 程 ， 以 及 前 向 传播 和 反 向 传播 的 过 程 。 

HAF, IEICE Vas = [4”,”8”"]， 并 引入 空白 符号 “blk”。 创建 CTC 
拓扑 图 的 代码 如 下 ， 其 创建 的 Has 如 图 2-3 所 示 。 


import k2 


isym = k2.SymbolTable.from str(""" 
blk 0 
Al 


B 2 


we m) 


osym = k2.SymbolTable.from str(""" 
A 1 


B 2 


we wy 


H = k2.cto topo(max token-2, modified-False) 


H.labels sym = isym 
H.aux labels sym - osym 


H.draw("H.pdf") 


规定 建 模 单元 为 字母 ， 目 标 标 签 序列 “AB” 编 码 为 “A” 和 “B”， 创 建 词 
典 图 的 代码 如 下 ， 其 创建 的 LAsg 如 图 2-4 所 示 。 


L = k2.linear_fsa([1,2]) 
L.labels_sym = isym 


L.aux_labels_sym = osym 


L.draw("L.pdf") 
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B:B/0 


表示 词典 为 “AB” 的 CTC 拓扑 


Omm OnO m O 


图 2-4 


E 


表示 目标 标签 序列 “AB” 的 词典 


图 


将 Has 与 Las 合并 可 以 得 到 HLAg， 其 将 预测 的 符号 序列 转换 为 单词 序列 ， 
包含 了 所 有 能 够 转换 为 目标 序列 “AB” 的 路 径 。 代 码 如 下 ， 其 创建 的 HLAs 如 


图 2-5 所 示 。 


1 HL = k2.compose(H, L) 


2 HL.draw("HL.pdf") 


假设 CTC 解码 器 的 输出 包括 三 帧 ,其 预测 的 概率 分 布 如 表 2-1 所 示 。 创 建 其 
对 应 的 稠密 有 限 状 态 接收 器 的 代码 如 下 ， 其 创建 的 Dense.FSA ap 如 图 2-6 所 示 。 
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blk:e/0 blk:e/0 


图 2-5 目标 序列 “AB” 对 应 的 HL 转换 器 


import torch 


nnet output = torch.log(torch.tensor( 
[[10.6,0.3,0.1],1[10.25,0.6,0.15], [0.25,0.15,0.6]1], 

) ) 

nnet output.requires grad (True) 


supervision segments = torch.tensor([[0, 0, 3]]).to(torch.int32) 


dense fsa = k2.DenseFsaVec ( 
torch.log(nnet_output), 
supervision_segments, 
allow_truncate=0, 


) 


dense fsa vec = k2.convert dense to fsa vec(dense fsa) 


dense fsa vec[0].draw("dense fsa.pdf") 


K 2-1 CTC 解码 器 输出 的 概率 分 布 
frame blk A B 


po log(0.60)= -0.5108 log(0.30)=-1.2040 log(0.10) = -2.3026 
pı  log(0.25) 2-1.3863 log(0.60)=-0.5108 log(0.15) = -1.8971 
p»  log(0.25) = -1.3863 log(0.15) = -1.8971  log(0.60) = -0.5108 
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0/-0.51 0/-1.39 


OT LOT Ory Om 


图 2-6 . CTC 解码 器 的 输出 对 应 的 稠密 有 限 状态 接收 器 


将 HL4s 与 Dense.FSAnp 相交 (Intersect) ， 即 可 生成 CTC Latticesg ， 其 
中 包含 了 目标 标签 序列 “AB” 所 有 有 效 的 对 齐 8-1G)。 代 码 如 下 ， 其 创建 的 
CTC LatticeAg 如 图 2-7 所 示 。 


ctc lattice = k2.intersect dense( 
HL, 
dense fsa, 
20.0, 

) 


ctc lattice[0].draw("ctc lattice.pdf") 


blk:e/-1.39 


图 2-7 ”目标 序列 “AB” 对 应 的 CTC WE 


ES 
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与 传统 的 CTC 中 使 用 前 向 -后 向 算法 "不同, 本文 使 用 一 种 可 微分 的 动态 规 
A] Jr ik! 来 计算 CTC Lattice 的 总 分 数 , 进而 优化 CTC 的 目标 函数 公式 (2-2)。 代 
码 如 下 : 


ctc object scores = cto lattice.get tot scores( 


log semiring-True, use double scores-Tru 
) 
print(ctc object scores) 


# tensor([-0.8983], dtype-torch.float64) 


此 例 中 使 用 对 数 半 环 (Log Semiring) ， 前 向 传播 过 程 的 数学 推导 如 下 : 
5, = arco, = —0.5108 
S2 = arco, = —1.2040 
$4 = log (et + @2 F976) = —0.6162 
S4 = So + arco4 = —2.5903 
85 = 59 + arcos = —3.1011 
$6 = log (e310 十 gsatarcao + ess tarese) = 一 0.9203 
$7 = $5 + arcs] = —4.4874 
Sg = log (es co + g 5114708) = —0.8083 
其 中 ， 终 结 点 的 sg = ctc object scores = -0.8983， 即 此 例 中 CTC 的 目标 函数 公 
式 (2-2) 的 值 ， 这 是 目标 标签 序列 “AB” 所 有 有 效 的 对 齐 S 0O) 
k2 的 绝 大 部 分 操作 支持 自动 求 导 ， 反 向 传播 计算 梯度 的 代码 如 下 : 


ctc_object_scores.backward () 

print (nnet output.grad) 

# tensor([[[0.5304, 0.4696, 0.0000], 
[0.1105, 0.7956, 0.0939], 


[0.0276, 0.0000, 0.9724]]]) 


‘https://github.com/k2-fsa/k2 的 Fsa.get tot scores() 
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反 向 传播 过 程 的 数学 推导 如 下 : 


ctc object scores = sg = log (es6 0256s + @°7 44778) 


Octc object scores _ Octc_ object scores s; 
Oarcs7 = p Oarcs7 
@57+arc78 Oss+arcs7 
aas e*6*arceg +e57 *arc7g Óarcs; 
_ e 44874 
= 509263 e 14874 
= 0.0276 
Octc_object_scores _ Octc_object_scores sg 
Oarc56 = Os6 Oarcs6 
e?6*4rcgg 


Óctc object scores _ 


Oarc46 


e?6*arcog 


e 0.9263 


e36 +arc6g +es7+arc78 


8log(e*3*«rce 十 e3S4+Qrc46 4055 +ares6 ) 


Oarcs6 


@55+arcs6 


e36+Q1C68 +eS7+Q17C78 @s3+arc36 十 e34+Q7C46 +es5+arcs6 


e-3.1011-0.5108 


09263 二 6-44574 0.6167-0.5108 二 6-2.5903-0.5108 十 6-3.10I1-0.5108 


= 0.972377138857178 * 0.0681823876732906 


= 0.0003 


OS6 


e6 +4168 


Octc_object_scores sg 


Oarca6 


0log(es3+4%c36 十 eS4+Qrc46 十 e55 tares6 ) 


@s6tarc68 +es7+arc78 
es6+a1c68 


e-0.9263 


= 0.1105 


Oarca6 


@54+arc46 


e36+Q1C68 Fes7+arc78 es3+arc36 十 e34+Q7C46 +es5+arcs6 


e 2.5903-0.5108 
一 509263 4g 14874 5:0.6162-0.5108 1 g-2.5903-0.5108 4e 3.1011-0.5108 


= 0.972377138857178 * 0.11363440101021251 


Octc_object_scores _ Octc_object_scores 056 
Oarc36 zx Os6 Oarc36 
e?6*arcgg 


Óctc object scores 
Oarc25 


e?6*arcgg 


e 0.9263 


es56+417c68 +es7+arc78 


à log(e*3 +arc36 4 e 54 dr C46 +es5+arcs6 ) 


Oarc36 


@53+arc36 


@s6+arc68 +eS7+Q17C78 e33+Q7C36 十 e34+Q7Cc46 十 e35+Q7C56 


er-2.5903-0.5108 


20.9263 pe 44874 0.6167-0.5108 二 -2.5903-0.5108 十 6-3.10I1-0.5108 


= 0.972377138857178 * 0.818183211316497 


= 0.7956 


Octc object scores s; 


Octc object scores sg 


Os7 Oarc2s Os6 Óarcos 

544 sat 55 十 
= es7tarc7g Os5+arcs7 es6+arc68 dlog(e%3 arc36 454 T4'C46 4.55 ares ) 
— e36*4'c6g +e57 +arc7g Óarcos e*6*arceg +e57 +arc7g dares 

544 54 sgt 
= es7+arc78 Osstarcs7 4 es6+arc68 dlog(e%3 Arc36 +es4+a1c46 4 @55 arcs6 ) die 
一 es6+4a1c68 4+es7tarc7g Oarc25 C6 F4CG68 Le 57 *arc7g Oss Oarc55 
2 ei7*arc7g Oso +arcy5+arcs7 + e36 +468 @55 +tarcs6 Os2+arc2s 
Des! e?6*4rcgg +e57 tarc7g Óarcos e?6*4rcgg +es7+47C78 e33 +arc36 十 e34+arc46 +es5+arcs6 Oarc2s 
u 74.4874 Os2+arc2s +arcs -0.9263 &-3.1011-0.5108 
= 7092631644874 arcs 20.9263 e 4.4874 q-0.6162-0.5108 4 e-2.5903-0.5108 4 ¢-3.1011-0.5108 


= 0.0939 


0.027622861 14282208 + 0.06629899504620523 
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Óctc. object. scores Octc object scores Os, 
J — J 6 
Oarc24 = Os6 Oarc24 
xs es6+arc68 ð log(e%3*4"°36 十 es4+arc46 4055 tarcs6 ) 
-F e*6*arceg +e57 tarc7g Oarcr4 
Sat Sgt SSH 
H es6+arc68 à log(es3 arc36 TesS4+arc46 4 e 55 ares ) sq 
Yi e36*4'cog +e57 tarc7g Os4 Óarco4 
Sat Sgt SSH 
B es6+arc68 ð log(es3 arc36 TeS4+arc46 +es5 arcs6 ) Os2+arc24 
mE es6 +arceg +e57 +arc7g Os4 Oarc24 
E e6*arcog e54 *arc4g 
— es56+47c68 十 657+47c78 es3tarc36 4 e54 dTC46 pe 55 tarcso 


Octc object scores 


e 0.9263 


e 2.5903-0.5108 


0.1105 


0.9263 pe 44874 @-0.6162-0.5108 4 e-2.5903-0.5108 4 @-3.1011-0.5108 


0.972377138857178 * 0.11363440101021251 


Octc_object_scores sg 


dare23 O86 Óarcaa 
e?6*arcóg [^ log(e*3 *arc36 +es4+arc46 4. e55 taresg ) 
~ ef 6*9 668 err TAT Oarc23 
e%6 tarcgg ð log(e*3 +arc36 4. e54 *arc46 +es5+Q7C56 ) aC 
= erreser an aa Dare 


es6+arc68 ô log(e*3*4rc36 十 es4+arc46 +es5 tarcs6 ) log(e51 +13 «e*2*4r623) 
E es6tarceg +e57+arc7g 083 Oarc23 
es6+a1c68 e$3+arc36 e$2+4rc23 


e36 +arc6g +e37+4rc78 e33 +arc36 +es4+arc46 +es5+arcs6 e$1+4rc13 十 e32+a7C23 
70.9263 e 0.6162-0.5108 e 1204-0.5108 
270.9263 Je 44874 5-0:6162-0.5108 4e 2.5903-0.5108 4e 3.1011-0.5108 g-0.5108-0.5108 4 c-1:204-0.5108 


0.972377138857178 * 0.818183211316497 x 0.3333215957833191 


0.2652 


Octc object scores _ Óctc object scores Os6 
Oarc13 Os6 Oarc13 
es6+arc68 ð log(e*3 +arc36 4 o54 *arc46 +es5+arcs6 ) 
a es6 +arceg +e57 +arc7g Óarci 3 
$4 sgt Ss 
B es6+arc68 ð log(es3 arc36 esS4+arc46 +es5 arcs6 ) Os3 
a es6 +arceg +e57tarc7g 083 Óarcia 


es6+arc68 ð log(e*3 *arcag 4 o4 *arC46 4.055 tarcs6 ) log(e*! *arc|a +02 tare) 
AT e*6*arcog +e57 tarc7g 083 darc 3 
es6+a1c68 e3 t4rc36 esi tarcs3 


e36+Q17C68 十 e3S7+Q7c78 e33 +arc36 十 e34+QaT7c46 十 e35+Q7C56 e$1+4rc13 十 e32+a7C23 
70.9263 e 0.6162-0.5108 e 0.5108-0.5108 
20.9263 pe 44874 @-0.6162-0.5108 4 5-2.5903-0.5108 4 e-3.1011-0.5108 @-0.5108-0.5108 4 c-1.204-0.5108 


0.972377138857178 x 0.818183211316497 * 0.666678404216681 


Octc object scores 
Óarcoi 


0.5304 


O56 
e?6*4rcgg 


e?6 *arcog 


e?6 *arc6g 


es6+417c68 +es7+arc78 


Octc object scores sg 


Óarcoi 
ð log(es +arc36 4 o54 *arc46 +es5+arcs6 ) 


Óarcoi 
ð log(es *arcag 4 o4 *arC46 4.055 tarcs6 ) Os3 


Os3 Oarcol 


ô log(e*3*4r636 十 es4+a1c46 +e55+arcs6 ) ss ósi 
Os3 


es6+a1c68 
E56 F468 +es7+arc78 


3 Os, ðarcoı 
ô log(e*3*4rc36 十 es4+a1c46 +e55+arcs6 ) log(e*1*47c13 +e52+0°23 ) an 


Os3 Os1 Óarcoi 
A log(e*3*4'636 +084 *arca6 4055 +4756 ) log(e1*are13 4052423) gs0Harcol 
es56+a17c68 4e tare7g Ós3 Os} 


e?6*4rcgg @53+arc36 
e36+Q17C68 十 e3S7+Q7c78 e53 +arc36 +e54 F4rc46 +es5+arcs6 e$1+4rc13 十 e32+Qa7C23 

70.9263 e 0.6162-0.5108 e 0.5108-0.5108 
一 $-03263 4e 14874 5:0.6162-0.5108 4 e-2.5903-0.5108 4e 3.1011-0.5108 g-0.5108-0.5108 4 c-1:204-0.5108 


0.972377138857178 x 0.818183211316497 * 0.666678404216681 
= 0.5304 


e?6 *arcog 


Óarcoi 
el *areg| 
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Óctc object scores Octc object scores 056 Octc object scores s; 
Oarco2 O56 Oarcg2 Os7 Oarco2 
Cs6+arcG68 ô log(e*3*4rc36 十 es4+arc46 +ess+arcs6 ) es7+arc78 Os7 
@s6+tarc68 Le 57 tarc7g Oarco2 + 56 T4968 4 87 tarc78 Oarco2 
es6+arc68 log(es3+4%c36 +e%4tarc4g +ess+arcs6 ) Os3 
Co elétareeg +097 T4078 Os3 darco2 
es6+arc68 A log(e*3*4r636 十 es4+arc46 +e55+arcs6 ) Os4 
26 F468 +e57 01078 Os4 darco2 
es6+arc68 A log(e*3*4rc36 +54 *arc4g +095 rares ) Oss 
es6tarceg +e57 tarc7g Oss Oarco> 
es7+47C78 057 
e?6*4rcgg 十 e3S7+Q7c78 Oarco> 
= e?6*arceg e33 +4arc36 Os3 
TY e*6*arcog 十 e37+aTrc78 e53 +arc36 十 e34+arc46 +es5+arcs6 Oarco2 
e36+Q17C68 @€s4+arc46 OS4 
e36+Q17C68 +e37+4rc78 e33 +arc36 +ẹe34+arc46 Le $5 *aresg Oarco2 
e%6 F468 e35*4'csg Oss 
e36+Q17C68 十 esS7+Q7c78 E53 *4!C36 e 54 * 4046 Le $5 tarcs6 Oarco2 
e37+4rc78 057 
es6+Q7Cc68 十 esS7+Q7c78 darcg2 
es6+arc68 e3*arc3g 0 log(e*! tarc|3 4.952 tare3 ) 
RA e*6*arcog +es7+arc78 e33 +arc36 十 e34+arc46 +es5+arcs6 Oarco2 + 
e*6*arcog e34+arc46 Os2+arc24 
@s6+tarc68 二 esS7+G1C78 B53 447036 eS4+arc46+ +arcs6 arco 
e36 +4rc6g pis 56 Ós»-arcas 
e?6*4rcog -pe57 tarc7g e33 +arc36 +e34+4rc46 Le 55 tarcs6 Oarco2 
€57+arc78 057 
e36*4rcog +e57 tarc7g Oarco> 
E es6+qa1c68 e33 +arc36 0log(esl+4%513 +e°2*4"23 ) öz 
cn e*6*arcog 十 e37+Ga7c78 e33 +arc36 +e34+4rc46 +es5+arcs6 Os Oarco2 
e?6 F468 es4+41c46 ðs2+arca4 Os» 
e36+Q17C68 -pe57 tarc7g E53 *4!C36 e 54 ta" C46 Le $5 *aresg ðs2 ðarco2 
e36+4rc6g e$5+arc56 Os2+arc2s Os2 
es6tarceg +e€”7+arc78 e33 *4C36 +es4t+arc46 +es5+arcs6 ðs2 darcg2 
e37+4rc78 057 
e?6*4rcgg +e57 tarc7g Oarco> 
z e?6*arceg @s3+arc36 es3S2+Q1C23 Oso+arco2 
T" e*6*arcog 十 e37+GaTrc78 €s3+arc36 +es4+arc46 +es5+arcs6 el +arc]3 +e52 Farcg3 Oarco2 
e36+a7c68 e4tarc4g Ós»--arco4 Oso-tarcoo 
e?6*4rcgg +e37+4rc78 e33 +tarc36 +ẹe34+arc46 +es5+arcs6 ðs2 Oarco> 
es6+a7c68 @s5tarcs6 Os2+arc2s so+arco 
e36 +arc6g +e37+4rc78 e33 +tarc36 +ẹe34+tarc46 +ẹe3$5tarc56 ðs2 Oarco> 
es7+417C78 057 
e36*arcog +e57 *arc7g Oarco> 
Z e*6*arcog e53 +arc36 e32 tarcg3 
LY e*6*arcog 十 e37+Qa7Cc78 e53 tarc36 +es4+arc46 +es5+arcs6 e$1+4rc13 十 e32+Q7Cc23 + 
e?6*4rcgg es4*arc4g 
e?6*4'cog +e57 *tarc7g E53 *4!C36 e 54 t4" C46 Le $5 *aresg 十 
e?6*4rcgg e?5*4rcsg 
e?6*4rcgg +e57 tare7g e83 +arc36 +e34+4rc46 +e35+4rc56 十 
e7*arc7g 0s; 0ss O82 
e36*4'€68 +057 *7'078 Ass Qs» arco 
= e*6*arcog e53 tarc36 e'2 tarcg3 
ae 056 F416 8 十 e3S7+Q7c78 e33 +arc36 +es4+arc46 +es5t+arcs6 e31+QaTC13 +es2+arc23 F 
e?6*4rcgg es4*arc4g 


Es6TArc68 yos] tarczg. 


e?6 *arcog 


EGTArc68 yos] AICTE 


e] tarc7g 


eso arg yos] AICTE 


e33 *drC36 4 es4 tarc4g 十 


e35 tarcs6 


+arcs6 + 


e33*4'C36 4 54 F446 e35 +tarc56 + 


055 05? darco2 
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es6+a1c68 es33+qa1C36 e$2+4rc23 
es6 +arceg +e57 +arc7g e33 +arc36 nun +Qarc46 +e55 +arcs6 el +arc 3 +e52 +arcy3 t 
e?6*arcog e$4+arc46 
es6+41C68 十 e37+47C78 es3tarc36 +es4tarc46 +es5+arcs6 二 
eo tarceg ess tarcse 
e36 F468 Le 57 F4IC78 es3tarc36 4 054 F47C46 +es5+arcs6 + 
es7tarc7g 
e36 T4968 十 es7+Q7C78 
e: 0.9263 e 0.6162-0.5108 e 1204-0.5108 
三 一 一 一- 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 十 
e 0.9263 二 e-4.4874 @-0.6162-0.5108 +e-2.5903-0.5108 +e-3.1011-0.5108 e-0.5108-0.5108 4 @-1.204—0.5108 
e-0.9263 e 2.5903-0.5108 
十 
e-0.9263 Te-4.4874 e-0.6162-0.5108 +e-2.5903-0.5108 +e-3.1011-0.5108 
e-0.9263 e-3.1011-0.5108 
—— cL ———————————— 十 
e-0.92603 十 e-4.4874 e-0.6102-0.5108 Te-2.5903-0.5108 +e-3.1011-0.5108 
e-4.4874 
e-0.92603 十 e-4.4874 


= 0.26518487850249195 + 0.11049549373005965 + 0.06629899504620525 
+0.027622861 14282208 
= 0.4696 


CTC Latticesg 与 CTC 解码 器 输出 之 间 的 对 应 关系 如 图 2-8 Brom, 


nnet_output.grad 即 poo, Pol… » pa 的 梯度 ， 与 上 述 反 向 传播 推导 的 结果 存在 以 
下 关系 : 


图 2-8 ”目标 序列 “AB” 对 应 的 CTC 词 图 与 CTC 解码 器 输出 的 对 应 关系 
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nnet output.grad[0][0] = Perte = 0.5304 
nnet output.grad[0][1] = E = 0.4696 


nnet output.grad|O 


(e cl. — 
— 
N 
as —la — 
II 
© 


ðctc_ob ject_scores 
nnet. output.grad|1][0] = Z7 = 0.1105 
_ Óctc object scores Óctc object scores 
nnet output.grad|1][1] = SD ERE ERE TC TEE 


= 0.5304 + 0.2652 = 0.7956 


nnet. output.grad|1]|2] = es — 9,9939 


] ] 三 Oarc25 
nnet output.grad[2][0] = cmi = 0.0276 
nnet output.grad|2][1] = 0 
Octc. object. 4 S Octc_ob ject_s S Octc_ob ject_s S 
nnet output.grad[2] [2] = CIC ee CIC e CEC yo EE 


= 0.7956 + 0.1105 + 0.0276 = 0.9724 
2.3 ” 端 到 端 语音 识别 系统 的 语言 模型 融合 


传统 的 混合 系统 (Hybrid System ) 显 式 地 学 习 声 学 模型 (Acoustic Model, AM), 
通过 贝 叶 斯 规则 ， 直 接 集成 外 部 语言 模型 (External Language Model, ELM) : 


PO |x) = pam Gl y) Perm Q) (2-9) 


在 端 到 端 系统 中 ， 通 过 统一 的 模型 联合 学 习 后 验 概率 pO | x)， 其 隐 含 的 声 
学 模型 和 语言 模型 是 高 度 相 关 的 ， 这 使 得 端 到 端 模型 在 进行 语言 模型 集成 时 不 
像 混合 模型 那样 容易 。 
2.3.4 Ek (Shallow Fusion, SF) 


Bh C PUT) 使 用 在 额外 文本 数据 进行 训练 的 循环 神经 网 络 语言 模型 
(RNNLM) ， 以 提高 语言 建 模 能 力 。 在 解码 过 程 中 ， 在 对 数 域内 将 神经 网 络 传 
感 器 和 循环 神经 网 络 语言 模型 的 非 空白 后 验 概率 相 加 ; 


log P Cy | x) = log Prnn-t (y | x) + Alog prim O), (2-10) 


EF, p(y |x) 是 解码 过 程 中 使 用 的 实际 后 验 概率 ，pgNNTO | x) 是 神经 网 络 传 
Ita PZ ce x BI y 的 后 验 概率 ，perm O) 是 由 循环 神经 网 络 语言 模型 生成 的 》 的 
2.3.2 ”内 部 语言 模型 估计 (Internal Language Model Estimation, ILME) 


神经 网 络 传感器 模型 从 转录 文本 中 通过 训练 捕捉 到 的 语言 模型 信息 被 认为 
包含 在 所 谓 的 内 部 语言 模型 中 (Internal language model, ILM) 中 。 如 果 能 够 以 
某 种 方式 估计 神经 网 络 传感器 的 内 部 语言 模型 ， 那 么 就 能 通过 先 减 去 内 部 语言 


= 
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模型 的 后 验 概率 Pr O) 再 加 上 外 部 语言 模型 的 后 验 概率 pem O) 来 实现 神经 网 
络 传感器 模型 的 语言 模型 集成 : 


AG | po Lo) (2-11) 
PUM (y) 


Meng 等 人 请] 中 将 声学 隐藏 状态 置 零 ， 并 对 联合 网 络 的 输出 中 的 非 空 白 标 
签 进行 归 一 化 ， 从 而 对 神经 网 络 传感器 模型 的 内 部 语言 模型 进行 估计 。 
2.33 ”密度 比 (Density Ratio, DR) 


尽管 浅 融 合 在 实践 中 被 广泛 使 用 ， 它 在 解码 过 程 中 将 语音 识别 模型 与 循环 
神经 网 络 语言 模型 的 概率 进行 简单 的 对 数 线性 插值 ， 这 种 方法 并 不 严格 遵循 贝 
HIE. WE, WEEPU 作为 浅 融合 的 延伸 而 提出 ， 它 做 出 如 下 假设 : 
e il (Source domain, ， 即 神经 网 络 传感器 训练 所 用 的 域 ) 存在 一 些 关 于 文 
本 和 音频 的 真实 联合 分 布 Ps O, x); 
e 目标 域 (Target domain) 存在 另外 一 些 关 于 文本 和 音频 的 真实 联合 分 布 
PT Q. x); 
。 源 域 的 端 到 端 模 型 能 够 合理 建 模 ps O | x): 
e. 独立 训练 的 语言 模型 能 够 分 别 合 理 建 模 ps (y) 和 prO); 
。 源 域 和 目标 域 具有 声学 一 致 性 (Acoustically Consistent) ， 即 ps O | x) ~ 
prO |x); 
。 目标 域 的 后 验 分 布 是 未 知 的 prO |x) 
基于 上 述 假设 ， 可 以 将 目标 域 后 验 估计 为 : 
PsCO pr O) 
PT (X) ps Q) 


公式 (2-12) 可 以 实现 对 神经 网 络 传感器 伪 后 验 (Pseudo-posterior) 的 佑 计 : 


PrO lx) = 


ps O |x) (2-12) 


log p (y | x) = logprnn-t Q | x) + 4 log pum O) + A% log prim O), (2-13) 


Hp, A, 表示 源 域 语言 模型 权重 , 4 表示 目标 域 语言 模型 权重 。 
2.3.4 低 阶 密度 比 (Low-order Density Ratio, LODR) 


一 些 研究 表明 中 ,神经 网 络 传感器 只 学 习 了 一 些 低 阶 语言 模型 信息 , 而 传 
统 的 DR 使 用 了 经 过 充分 上 下 文 训练 的 RNNLM， 这 可 能 不 适合 于 ILM 的 估计， 
并 且 可 能 导致 语言 模型 集成 性 能 下 降 。 基 于 DR 方法 ，Zheng 55 AU" 提出 了 一 
种 低 阶 密度 比方 法 (LODR) ， 通 过 使 用 低 阶 弱 语 言 模型 对 源 领 域 的 语言 学 数据 
进行 估计 。 
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第 三 章 ”空白 正则 化 策略 与 跳 帧 


3.1 CTC 指导 下 的 神经 网 络 传感器 

受 CTC 和 神经 网 络 传感器 中 空白 符号 发 挥 着 类 似 作 用 的 启发 ， 一 些 先前 的 
研究 尝试 利用 CTC 中 的 空白 符号 来 指导 并 简化 神经 网 络 传感器 系统 的 推理 过 程 。 
Tian 等 人 四 提出 了 一 种 基于 CTC 分 支 预测 的 空白 概率 丢弃 共享 编码 器 输出 帧 的 
方法 。 通 过 减少 输入 联合 网 络 来 自 编 码 器 输出 的 帧 数 ， 可 以 大 大 提高 解码 速度 。 
然而 , 在 训练 过 程 中 没有 进行 跳 帧 。 训 练 和 推理 过 程 中 处 理 空白 帧 的 方式 不 一 至 
导致 性 能 不 佳 。 为 了 在 训练 和 推理 过 程 中 实现 一 致 的 跳 帧 行为 ，Wang 5$ PI 基 
于 联合 训练 的 CTC 模型 预测 的 空白 概率 ， 在 共享 编码 器 的 中 间 层 进行 跳 帧 。 在 
前 向 传播 过 程 中 ，CTC 分 支 计算 空白 概率 ， 空 白 概 率 高 于 预定 阐 值 的 帧 将 不 会 
参与 RNN-T 损失 函数 的 计算 。 作 者 报道 这 种 方法 在 神经 网 络 传感器 模型 在 训练 
和 推理 中 实现 了 显著 加 速 ， 并 且 不 降低 性 能 。 
3.2 ”空白 正则 化 策略 

EA Jr vk 5?! 通过 利用 联合 训练 的 CTC 来 跳 过 空白 帧 , 从 而 提高 神经 网 络 传 
感 器 的 推理 速度 。 然 而 ,很 少 有 研究 探索 跳 过 非 空白 帧 的 可 行 性 。 根 据 公 式 (2-1) 
中 B(-) 的 定义 ，CTC 模型 不 仅 会 删除 所 有 空白 符号 ， 还 会 合并 连续 重复 的 符号 。 
假设 CTC 分 支 可 以 将 输出 序列 中 连续 重复 的 非 空 白 符号 对 应 的 帧 视 为 空白 帧 ， 
那么 在 神经 网 络 传感器 解码 时 可 以 技 弃 更 多 的 共享 编码 器 输出 帧 ， 从 而 进一步 
加 快 推理 速度 。 受 此 观察 的 启发 ， 本 文 提 出 了 两 种 策略 来 缩小 CTC 中 非 空白 符 
号 后 验 分 布 的 尖峰 ， 并 强制 CTC 模型 输出 更 少 的 连续 重复 的 非 空白 符号 。 
3.2.1 KBR HI) (Soft Restriction) 


第 一 个 提出 的 策略 是 在 训练 过 程 中 ， 在 标准 CTC 的 HL 转换 器 中 的 所 有 非 
空白 自 环 上 引入 固定 惩罚 项 4 (例如 0.05) ， 如 图 3.1a) 所 示 。 这 就 意味 着 包含 
越 多 连续 重复 非 空白 符号 的 对 齐 将 受到 越 大 的 每 罚 ， 如 图 3.1b) 所 示 ， 使 得 CTC 
模型 倾向 于 输出 具有 较 少 连续 重复 非 空白 符号 的 对 齐 。 值得 注意 的 是 ,本 文 只 在 
训练 过 程 中 添加 这 个 非 空白 自 环 息 罚 项 4。 通 过 调整 惩罚 项 4 的 大 小 ， 可 以 控制 
KA CTC 分 支 输出 的 空白 帧 的 比例 。 这 个 策略 被 称 为 soft restriction ( 软 限制 ) 。 
3.2.2” 硬 限制 (Hard Restriction) 


在 soft restriction 〈 软 限制 ) 中 ， 通 过 对 具有 连续 重复 非 空白 符号 的 CTC 对 
FAITE, CTC 分 支 产 生 了 更 大 比例 的 空白 帧 ,。 然而 , 在 训练 过 程 中 具有 不 同 


天 津 大 学 2023 届 本 科 生 毕业 论文 


数量 的 重复 非 空白 符号 的 对 齐 仍 会 参与 优化 ,因为 根据 定义 , 这 些 都 是 有 效 的 对 
齐 。 针 对 此 ， 提 出 的 另 一 种 策略 称 为 hard restriction 〈 硬 限制 ) ， 在 训练 过 程 中 
显 式 限制 最 大 连续 重复 非 空白 符号 数 K (包含 第 一 个 非 空白 符号 ) 。 图 3.1c) 和 
图 3.1d) 分 别 给 出 了 天 = 工 和 天 =2 时 的 HL 转换 占 。 可 以 看 到 ， 超 过 外 个 连续 


重复 非 空白 符号 的 对 齐 在 相应 的 HL 转换 器 中 被 修剪 掉 了 。 


£:0/0 €:0/0 
(3 (3 


£:0/0 £:0/0 
(3 (3 


£:0/0 €:0/0 
(3 R 


d) 硬 限 制 的 HL 转换 器 ,下 = 2 


图 3-1 ”目标 标签 序列 “AB” 对 应 的 HL 转换 器 的 加 权 有 限 状态 转换 器 表示 ， 包 括 有 /无 
空白 正则 化 的 情况 。 带 有 标签 “a:b/s” 的 张 表示 加 权 有 限 状 态 转换 器 接受 输入 a， 并 以 得 分 
s 输出 b。 进 入 最 终 状 态 的 弧 的 标签 为 “-10/0”。 对 于 软 限制 ， 对 所 有 非 空白 符号 的 自 环 加 
以 惩罚 项 4。 对 于 硬 限制 ， 限 制 连续 重复 非 空 白 符 号 的 最 大 数量 K。 注 意 ， EK = 1 的 情况 
下 ， 不 允许 连续 重复 非 空白 符号 。 


3.23. 基于 k2 实现 空白 正则 化 的 CTC 

本 小 节 中 ， 同 样 以 目标 标签 序列 “AB” 为 例 ， 通 过 代码 和 可 视 化 加 权 有 限 
状态 转换 器 ， 展 示 构 建 空 白 正 则 化 的 CTC 的 HL 转换 器 的 过 程 。 

KAP, IEICE Vas = [4 ”8]， 并 引入 空白 符号 “blk”。 直 接 创建 
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标准 的 HL 转换 器 的 代码 如 下 ， 其 创建 的 HLas 如 图 3-2 所 示 。 


import k2 


isym = k2.SymbolTable.from str(""" 


blk 0 
Al 


B 2 


"mn ") 


osym = k2.SymbolTable.from str(""" 


A 1 


B2 


"mn ") 


HL.labels sym - isym 


HL.aux labels sym - osym 


HL.draw("HL.pdf") 


HL = k2.cto graph([[1,2]], modified=False) 


通过 对 HLas 中 所 有 非 空白 自 环 (Bl arci, arca) 加 以 固定 惩罚 项 4 = 0.05, 
即 可 得 到 软 限 制 的 HL 转换 右 。 创 建 软 限制 A = 0.05 的 HL 转换 器 的 代码 如 下 ， 


其 创建 的 HLA 如 图 3-3 所 示 。 


blk:e/0 


20 


图 3-2 ”表示 目标 序列 “AB” 对 应 的 标准 HL 转换 器 
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HL soft = k2.ctc_graph([[1,2]], modified-False) 


all self blanks idx = ( 


HL soft.arcs.values()[:, 0] == HL soft.arcs.values()[:, 1] 
) 
blank self loops idx = HL soft.arcs.values()[:, 2] == 0 
HL soft.scores[all self blanks idx] = -0.05 
HL soft.scores[blank self loops idx] = 0.0 
HL soft.draw("HL soft.pdf") 


blk:e/0 blk:e/0 


图 3-3 ”表示 目标 序列 “AB” 对 应 的 软 限制 的 HL 转换 器 , A = 0.05 


通过 限制 HLAs 中 非 空 白 符 号 的 最 大 连续 重复 数量 K = 2， 即 可 得 到 硬 限制 
的 HL 转换 器 。 创 建 硬 限制 K=2 的 HL 转换 器 的 代码 如 下 ， 其 创建 的 HLAB 如 
图 3-4 所 示 。 


HL hard = k2.fast cto graph( 
[[1,2]], modified-False, max repeat-2 
) 


HL hard.draw("HL hard2.pdf") 


blk:e/0 


图 3-4 ”表示 目标 序列 “AB” 对 应 的 硬 限制 的 HL 转换 带 , K 22 


通过 限制 HLAs 中 非 空白 符号 的 最 大 连续 重复 数量 K = 1， 即 可 得 到 硬 限制 
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的 HL 转换 器 。 创 建 硬 限制 K = 1 的 HL 转换 器 的 代码 如 下 ， 其 创建 的 HL 如 
图 3-5 所 示 。 


HL hard = k2.fast ctc graph( 
[[1,2]], modified-False, max repeat-1 
) 


HL hard.draw("HL hardl.pdf") 


图 3-5 表示 目标 序列 “AB” 对 应 的 硬 限制 的 HL 转换 器 ,下 = 1 


ool 


T» UU 


E 


3.3. Bk 


&3-6 — 跳 帧 示意 图 


在 训练 过 程 中 ， 根 据 联合 训练 的 CTC 分 支 预测 的 空白 概率 pp. ， 筛 选编 码 器 
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输出 帧 。 如 果 p? 超过 预先 设 定 的 国 值 6 (例如 0.85) ， 则 第 t 帧 被 归 类 为 空白 
W, Æ RNN-T 损失 函数 计算 时 被 丢弃 。 跳 帧 的 过 程 如 图 3-6 所 示 。 被 丢弃 的 编 
码 咒 输出 帧 集合 可 以 被 如 下 描述 : 


Ískippea = {fi | pr < B] (3-1) 


EEP, AT DAG eva EE s WY EL B" ARSE BBE LS AL al ES 
之 间 的 折 中 。 
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第 四 章 ”实验 与 分 析 


4.1 实验 设计 

数据 集 ”在 实验 中 使 用 LibriSpeech P9? 语 料 库 ， 其 中 包含 960 小 时 的 有 声 读物 
录音 转录 。 使 用 Lhotse??! 进行 数据 准备 。 对 训练 数据 应 用 速度 扰动 0 ， 扰 动因 
子 为 0.9 和 1.1， 来 进行 数据 增 广 。 在 训练 过 程 中 使 用 SpecAugment H! 和 噪声 增 
BOAT 来 提高 模型 的 鲁 棒 性 。 输 入 特征 是 以 窗口 大 小 为 25 毫秒 ， 帧 移 为 10 毫秒 ， 
提取 的 80 通道 滤波 器 组 特征 (FilterBank，FBank) 。 建 模 单 元 使 用 500 类 的 字 
节 对 编码 (Byte Pair Encoding, BPE) P? 词 切片 (Word Pieces) 。 

系统 架构 “如 图 4-1 所 示 ， 采 用 了 联合 训练 的 CTC 和 神经 网 络 传感器 模型 框架 。 
共享 编码 器 是 一 个 维 数 为 512 的 12 层 ConformerP 。 神 经 网 络 传感器 的 解码 器 
是 一 个 维 数 为 512、 上 下 文 长 度 为 2 的 无 状态 解码 器 (Stateless) 29 。 在 编码 器 
之 前 有 一 个 步 长 为 4 的 卷 积 降 采 样 模块 ， 将 帧 率 降 低 到 25 赫兹 。 该 模型 总 共有 
78.9M 参数 。 


CTC 神经 网 络 传感器 损 


Joint 
Network 
CTC Frame 
Decoder Skipper 

Shared Label 
Encoder Decoder 


声学 特征 文本 序列 
序列 


VN 
= 


后 验 概率 


图 4-1 神经 网 络 传感器 基于 联合 训练 的 CTC 进行 跳 帧 的 系统 架构 。 


训练 “采用 由 CTC 损失 函数 中 的 0.2 倍 与 剪 术 的 RNN-T 损失 函数 (Pruned 
RNN-T Loss) 相 加 得 到 的 损失 函数 。 考 虑 到 CTC 分 支 在 早期 阶段 对 空白 符号 
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的 预测 不 准确 ， 跳 帧 机 制 在 4000 次 更 新 (Step) 之 后 才 会 使 用 。 本 文 在 接 下 来 的 
小 节 设 计 了 一 系列 实验 来 探索 超 参数 (6,B',4,K) 的 影响 。 所 有 模型 均 使 用 4 张 
NVIDIA V100 GPU 进行 训练 。 

评估 ”在 LibriSpeech 的 测试 集 (test-clean 和 test-other) 上 对 性 能 进行 评估 。 除 
了 词 错误 率 (WER) 外 ， 还 测量 了 跳 帧 率 (定义 为 Se") 和 实时 率 (Real Time 
Factor, RTF) 作为 推理 速度 的 评 佑 指标。 此外， 为 了 评估 语言 模型 与 应 用 了 跳 
帧 技术 的 神经 网 络 传感器 的 结合 能 力 ， 本 文 还 报告 了 使 用 外 部 语言 模型 (LM) 
进行 解码 的 WER。 本 文采 用 浅 融 合 和 低 阶 密度 比分 别 进行 了 语言 模型 融合 的 研 
究 。 外 部 语言 模型 由 三 层 长 短期 记忆 网 络 (LSTM) P9 组 成 ,在 LibriSpeech if 
言 模型 语料库 上 进行 训练 ， 低 阶 密度 比 中 的 低 阶 n 元 语言 模型 (n-gram) 是 在 
LibriSpeech 的 960 小 时 的 转录 文本 上 训练 的 二 元 语言 模型 (Bi-gram) 。 通 过 在 
LibrSpeech 的 开发 集 (dev-clean 和 dev-other) 上 进行 网 格 搜 索 (Grid Search) 来 
调整 长 短期 记忆 网 络 语言 模型 和 二 元 语言 模型 在 解码 时 的 比例 。 


42 ”实验 结果 及 分 析 
4.2.1 空白 正则 化 策略 对 性 能 的 影响 


图 4-2 展示 了 不 同 策略 实现 的 空白 正则 化 CTC 对 相同 声学 输入 帧 的 空白 标 
记 情 况 。 从 白色 部 分 的 连续 程度 可 以 看 出 ， 本 文 提 出 的 正则 化 方法 有 效 地 激励 
CTC 将 非 空 白 重 复 帧 标记 为 空白 帧 ， 使 得 整体 上 深 色 部 分 占 比 更 大 ， 也 就 意味 
着 神经 网 络 传感器 损失 计算 涉及 的 帧 数 越 少 。 


e 
AA 
N 
b ' , ' 1 


o m o q an H o0 只 
"uu A À o NM 5 


图 4-2 ”对 比 不 同 的 策略 下 ， 空 白 正 则 化 CTC 对 于 相同 声学 输入 帧 的 空白 标记 情况 。 深 
色 部 分 表示 空白 帧 ， 白 色 部 分 表示 非 空白 帧 。0 表示 没有 正则 化 的 CTC, 1 表示 采用 软 限 制 
正则 化 的 CTC，2 表示 采用 硬 限制 正则 化 的 CTC. 


应 用 不 同 策略 来 正则 化 空白 符号 的 结果 如 表 4-1 所 示 。 基 线 模型 是 没有 应 用 
跳 帧 技术 的 神经 网 络 传感器 和 CTC 联合 训练 系统 ， 其 中 CTC 损失 函数 作为 辅 
助 损失 函数 ， 权 重 为 0.2。 为 了 与 不 修改 CTC 拓扑 图 的 现 有 跳 帧 方法 进行 比较 ， 
表 4-1 中 列 出 了 三 个 在 训练 和 推理 中 使 用 不 同 预 设 阔 值 进行 跳 帧 的 模型 ， 称 为 
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] 


4-1 ”对比 神 经 网 络 传感器 在 不 同 的 策略 下 ， 使 用 不 同 的 B/A/K 的 词 错 误 率 (WER ， 
以 百分比 表示 ) ， 跳 帧 率 (以 百分比 表示 ) 以 及 实时 率 (RTF) 。 


WERJ Frame Reduction 


Method RTF] 
clean other RatioT 
Baseline 245. 5.93 0.00 0.0106 
Threshold 
p = 0.90 2.47 6.07 65.66 0.0038 
p - 0.85 2.54 5.95 66.64 0.0036 
p = 0.80 2.59 6.11 68.34 0.0035 
Soft Restriction 
A = 0.03 2.48 5.91 74.92 0.0026 
A = 0.04 2.44 5.88 75.44 0.0026 
A = 0.05 2.5] 6.00 75.78 0.0024 
A = 5.00 2.90 6.89 78.25 0.0023 
Hard Restriction 
天 =2 2.49 5.92 42.35 0.0031 
K=1 2.92 6.96 78.23 0.0023 


7Tjrespnold。 表 4-1 中 还 显示 了 测试 集 上 的 平均 跳 帧 率 。 作 为 一 个 参考 数值 ， 本 文 
计算 了 理论 上 可 能 的 最 大 跳 帧 率 Ymar = 1— F = 78.6196, HP S 是 测试 集中 输出 
符号 序列 的 总 长 度 ，7 是 测试 集中 声学 输入 帧 序列 的 总 长 度 。 


可 以 得 出 以 下 观察 结果 : 

。 与 现 有 方法 相 比 ， 在 CTC 拓扑 图 上 应 用 软 限制 或 硬 限制 后 实现 了 更 大 的 
跳 帧 率 ， 表 明 有 更 大 比例 的 帧 被 CTC 分 支 标 记 为 空白 帧 ; 

。 可 以 通过 调整 4 或 开 来 实现 在 词 错误 率 和 实时 率 之 间 的 折 中 。 较 大 的 第 
T A 或 较 小 的 K 激励 共享 编码 器 更 大 力度 区 分 空白 帧 和 非 空白 帧 ， 从 而 
使 得 空白 帧 的 预测 更 加 可 靠 。 通 过 进一步 增加 4 至 5 或 将 K 减 小 至 1， 跳 
帧 率 趋 近 yxar， 同 时 保持 合理 的 准确 率 ; 

。 本文 提 出 的 空白 正则 化 方法 在 保持 与 不 跳 过 空白 帧 的 基线 模型 相当 的 其 
至 稍微 更 低 的 词 错误 率 的 同时 ,实现 了 4 售 的 加 速 。 这 表明 在 训练 过 程 中 
通过 适当 的 正则 化 ， 连 续 重 复 的 非 空白 帧 对 解码 结果 的 贡献 可 以 忽略 不 
计 ， 在 推理 过 程 中 丢弃 这 些 帧 不 会 影响 词 错 误 率 。 

图 4-3 可 视 化 了 跳 帧 率 与 聚合 词 错 误 率 之 间 的 关系 ， 聚 合 词 错误 率 是 在 Lib- 
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929. |-> Threshold 8 = 0.90 
gg| |-> Threshold 6 = 0.85 
-e- Threshold 6 = 0.80 
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图 4-3 聚合 词 错误 率 (以 百分比 表示 ) 关于 跳 帧 率 (以 百分比 表示 ) WHR. RAWE 
误 率 是 在 LibriSpeech 语料库 的 test-clean 和 test-other 子 集 上 的 词 错误 率 之 和 。 


riSpeech 语料库 的 test-clean 和 test-other 子 集 上 的 词 错误 率 之 和 。 图 4-3 中 还 包 
括 基线 模型 的 聚合 词 错 误 率 (水平 虚线 ) 和 ym (垂直 虚线 ) ， 两 者 作为 参考 线 
绘制 。 每 条 曲线 的 采样 点 是 通过 改变 解码 空白 阐 值 86'( 取 值 为 0.8, 0.85, 0.9, 0.95, 
0.99, 0.999) 得 到 的 。 从 图 中 可 以 看 出 ， 在 解码 过 程 中 通过 调整 B' 可 以 实现 聚合 
词 错 误 率 和 跳 帧 之 间 的 折 中 。 较 小 的 B 能 得 到 更 多 的 空白 帧 ， 但 同时 也 会 增加 
词 错误 率 。 本 文 提出 的 方法 在 不 牺牲 准确 率 的 前 提 下 实现 了 比 现 有 方法 (图 4-3 
中 Threshold-x) 更 大 的 跳 帧 率 。 通 过 调整 4 或 K, 使 用 空白 正则 化 的 神经 网 络 传 
感 器 甚至 优 于 不 跳 过 空白 帧 的 基线 模型 ， 同 时 实现 超过 75% 的 跳 帧 率 。 
4.22. 空白 正则 化 策略 对 外 部 语言 模型 融合 的 影响 

d 4-2 展示 了 使 用 外 部 语言 模型 解码 的 词 错误 率 (WER) ， 并 且 展 示 了 相对 
于 表 4-1 中 不 使 用 外 部 语言 模型 作为 基线 模型 的 相对 性 能 提升 百分比 。 

与 基线 模型 相 比 ， 使 用 空白 正则 化 的 神经 网 络 传感器 模型 在 与 外 部 语言 模 
型 结合 时 ， 无 论 采 用 浅 融 合 或 是 低 阶 密度 比 ， 均 使 得 词 错误 率 相对 降低 得 更 多 ， 
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表 4-2 ”对 比 不同 策 略 下 的 词 错 误 率 (WER， 以 百分比 表示 ) 及 与 外 部 语言 模型 融合 的 相 


对 性 能 提升 百分比 。 
t RAMAL ”提升 百分比 ?1 低 阶 密度 比 上 提升 百分比 了 
方法 
clean other clean other 

Baseline 2.24 5.35 9.43 2.16 5.09 13.48 
Threshold 

p = 0.85 2.23 5.23 12.13 2.2 5.05 15.55 
Soft Restriction 

A = 0.04 2.19 5.17 11.54 2.00 4.94 15.50 

A = 5.00 2.55 6.16 11.03 2.44 5.87 15.12 
Hard Restriction 

K=2 2.19 5.21 12.01 2.07 5.01 15.81 

K=1 2.55 6.10 12.45 2.47 5.78 16.50 


这 表明 丢弃 更 多 的 空白 帧 可 以 更 好 地 与 外 部 语言 模型 融合 。 
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第 五 章 。 结论 与 展望 


受到 CTC 和 神经 网 络 传感器 中 空白 符号 发 挥 着 类 似 作用 的 启发 ， 本 文 提 出 
了 两 种 新 颖 的 空白 正则 化 方法 ， 以 进一步 提高 联合 训练 的 CTC 模型 中 预测 空白 
符号 的 比例 。 通 过 在 进入 联合 网 络 之 前 丢弃 空白 帧 ， 空 白 正 则 化 的 CTC 可 以 极 
大 地 加 速 神经 网 络 传感器 的 推理 过 程 。 值 得 注意 的 是 ,本 文 提 出 的 正则 化 方法 能 
人 够 让 神经 网 络 传感器 的 跳 帧 率 还 近 理 论 极 限 。 实 验证 明 ， 在 空白 正则 化 的 CTC 
的 指导 下 ， 神 经 网 络 传感器 在 推理 过 程 中 实现 了 4 倍 的 加 速 ， 并 且 不 牺牲 性 能 。 
本 文 的 方法 在 词 错 误 率 (WER) 和 推理 实时 率 (RTF) 之 间 实 现 了 更 好 的 权衡 ， 
优 于 现 有 方法 。 此 外 ， 当 神经 网 络 传感器 结合 外 部 语言 模型 进行 解码 时 ， 能 够 获 
得 更 大 的 性 能 提升 。 

本 文 的 工作 揭示 了 几乎 不 含 空白 符号 的 神经 网 络 传感器 可 行 性 ， 未 来 将 学 
试 重新 定义 神经 网 络 传 感 右 的 空白 符号， 实现 更 高 效 的 端 到 端 自 回归 框架 。 
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